Decentralized bilevel optimization has received increasing attention recently due to its foundational role in many emerging multi-agent learning paradigms (e.g., multi-agent meta-learning and multi-agent reinforcement learning) over peer-to-peer edge networks. However, to work with the limited computation and communication capabilities of edge networks, a major challenge in developing decentralized bilevel optimization techniques is to lower sample and communication complexities. This motivates us to develop a new decentralized bilevel optimization called DIAMOND (decentralized single-timescale stochastic approximation with momentum and gradient-tracking). The contributions of this paper are as follows: i) our DIAMOND algorithm adopts a single-loop structure rather than following the natural double-loop structure of bilevel optimization, which offers low computation and implementation complexity; ii) compared to existing approaches, the DIAMOND algorithm does not require any full gradient evaluations, which further reduces both sample and computational complexities; iii) through a careful integration of momentum information and gradient tracking techniques, we show that the DIAMOND algorithm enjoys $\mathcal{O}(\epsilon^{-3/2})$ in sample and communication complexities for achieving an $\epsilon$-stationary solution, both of which are independent of the dataset sizes and significantly outperform existing works. Extensive experiments also verify our theoretical findings.
translated by 谷歌翻译
To lower the communication complexity of federated min-max learning, a natural approach is to utilize the idea of infrequent communications (through multiple local updates) same as in conventional federated learning. However, due to the more complicated inter-outer problem structure in federated min-max learning, theoretical understandings of communication complexity for federated min-max learning with infrequent communications remain very limited in the literature. This is particularly true for settings with non-i.i.d. datasets and partial client participation. To address this challenge, in this paper, we propose a new algorithmic framework called stochastic sampling averaging gradient descent ascent (SAGDA), which i) assembles stochastic gradient estimators from randomly sampled clients as control variates and ii) leverages two learning rates on both server and client sides. We show that SAGDA achieves a linear speedup in terms of both the number of clients and local update steps, which yields an $\mathcal{O}(\epsilon^{-2})$ communication complexity that is orders of magnitude lower than the state of the art. Interestingly, by noting that the standard federated stochastic gradient descent ascent (FSGDA) is in fact a control-variate-free special version of SAGDA, we immediately arrive at an $\mathcal{O}(\epsilon^{-2})$ communication complexity result for FSGDA. Therefore, through the lens of SAGDA, we also advance the current understanding on communication complexity of the standard FSGDA method for federated min-max learning.
translated by 谷歌翻译
无源的无监督域适应性(SFUDA)旨在使用未标记的目标数据和训练有素的源域模型来学习目标域模型。大多数先前的SFUDA都致力于根据源知识推断目标数据的语义。在不衡量源知识的可传递性的情况下,这些方法不足以利用源知识,并且无法识别推断的目标语义的可靠性。但是,现有的可传递性测量需要源数据或目标标签,而SFUDA中是不可行的。为此,首先,我们提出了一种新颖的不确定性诱导的可传递性表示(UTR),该表示在没有源数据和目标标签的情况下,它利用不确定性作为工具来分析源编码的通道可传递性。域级UTR揭开了编码器通道向目标域的可传输程度,实例级别的UTR表征了推断的目标语义的可靠性。其次,基于UTR,我们为SFUDA提出了一个新颖的校准自适应框架(CAF),包括i)源知识校准模块,该模块指导目标模型学习可转移的源知识并丢弃不可转移的源知识,并且II)校准不可靠语义的目标语义校准模块。在校准的源知识和目标语义的帮助下,该模型可以安全地适应目标领域。我们使用实验结果验证了方法的有效性,并证明所提出的方法在三个SFUDA基准上实现了最先进的性能。代码可在https://github.com/spiresearch/utr上找到。
translated by 谷歌翻译
现有域适应方法假设域差异是由一些离散属性和变化引起的很少的离散属性。因此,我们建议研究一个新问题,即通过连续变化的属性形成无限结构域的晶状体连续域适应(CDA)。利用两个标记的源域和几个观察到的未标记目标域数据的知识,CDA的目的是学习具有连续属性的整个数据分布的通用模型。除了提出新问题的贡献外,我们还提出了一种新颖的方法作为强大的CDA基线。具体而言,首先,我们提出了一种新颖的交替训练策略,以减少多个领域之间的差异,同时概括为看不见的目标域。其次,在估计跨域差异测量时,我们提出了连续性约束。最后,为了使差异与迷你批量大小相结合,我们设计了一个特定领域的队列,以维护源域的全局视图,从而进一步提高了适应性性能。事实证明,我们的方法可以使用广泛的实验实现CDA问题的最新问题。该代码可在https://github.com/spiresearch/cda上找到。
translated by 谷歌翻译
由于其在数据隐私保护,有效的沟通和并行数据处理方面的好处,联邦学习(FL)近年来引起了人们的兴趣。同样,采用适当的算法设计,可以实现fl中收敛效应的理想线性加速。但是,FL上的大多数现有作品仅限于I.I.D.的系统。数据和集中参数服务器以及与异质数据集分散的FL上的结果仍然有限。此外,在完全分散的FL下,与数据异质性在完全分散的FL下,可以实现收敛的线性加速仍然是一个悬而未决的问题。在本文中,我们通过提出一种称为Net-Fleet的新算法,以解决具有数据异质性的完全分散的FL系统,以解决这些挑战。我们算法的关键思想是通过合并递归梯度校正技术来处理异质数据集,以增强FL(最初旨在用于通信效率)的本地更新方案。我们表明,在适当的参数设置下,所提出的净型算法实现了收敛的线性加速。我们进一步进行了广泛的数值实验,以评估所提出的净化算法的性能并验证我们的理论发现。
translated by 谷歌翻译
为了提高分布式学习的训练速度,近年来见证了人们对开发同步和异步分布式随机方差减少优化方法的极大兴趣。但是,所有现有的同步和异步分布式训练算法都遭受了收敛速度或实施复杂性的各种局限性。这激发了我们提出一种称为\ algname(\ ul {s} emi-as \ ul {yn}的算法} ent \ ul {s} earch),它利用方差减少框架的特殊结构来克服同步和异步分布式学习算法的局限性,同时保留其显着特征。我们考虑分布式和共享内存体系结构下的\ algname的两个实现。我们表明我们的\ algname算法具有\(o(\ sqrt {n} \ epsilon^{ - 2}( - 2}(\ delta+1)+n)\)\)和\(o(\ sqrt {n} {n} 2}(\ delta+1)d+n)\)用于实现\(\ epsilon \)的计算复杂性 - 分布式和共享内存体系结构分别在非convex学习中的固定点,其中\(n \)表示培训样本的总数和\(\ delta \)表示工人的最大延迟。此外,我们通过建立二次强烈凸和非convex优化的算法稳定性界限来研究\ algname的概括性能。我们进一步进行广泛的数值实验来验证我们的理论发现
translated by 谷歌翻译
近年来,由于它们在对点对点网络上的分散性学习问题(例如,多机构元学习,多机构的多方强化增强学习学习)上,分散的双层优化问题在网络和机器学习社区中引起了越来越多的关注。 ,个性化的培训和拜占庭的弹性学习)。但是,对于具有有限的计算和通信功能的对等网络上的分散式双层优化,如何实现低样本和通信复杂性是迄今为止尚未探索的两个基本挑战。在本文中,我们首次尝试研究了分别与外部和内部子问题相对应的非凸和强结构结构的分散双重优化问题。本文中我们的主要贡献是两倍:i)我们首先提出了一种称为Interact的确定性算法(Inter-gradient-descent-out-outer-tracked-gradeent),需要$ \ Mathcal {o}的样品复杂性(n \ epsilon) ^{ - 1})$和$ \ mathcal {o}的通信复杂性(\ epsilon^{ - 1})$解决双重优化问题,其中$ n $和$ \ epsilon> 0 $是样本的数量在每个代理和所需的平稳性差距上。 ii)为了放宽每次迭代中进行全面梯度评估的需求,我们提出了一个随机方差的互动版本(SVR Interact),该版本将样品复杂性提高到$ \ Mathcal {o}(\ sqrt {n} \ epsilon ^{ - 1})$在达到与确定算法相同的通信复杂性时。据我们所知,这项工作是第一个实现低样本和通信复杂性,以解决网络上的分散双层优化问题。我们的数值实验也证实了我们的理论发现。
translated by 谷歌翻译
在过去的十年中,随着大数据技术的发展,越来越多的患者信息被存储为电子健康记录(EHRS)。利用这些数据,已经提出了各种医生建议系统。通常,此类研究以平坦结构的方式处理EHR数据,每次相遇都被视为一组无序的特征。然而,不得忽略索赔中存储的诸如服务序列之类的异质结构化信息。本文提出了一个医生推荐系统,并嵌入了时间,以使用异质图注意网络重建患者和医生之间的潜在联系。此外,为了解决患者数据共享交叉医院的隐私问题,还提出了一种基于最小化优化模型的联邦分散学习方法。基于图的推荐系统已在EHR数据集上进行了验证。与基线模型相比,提出的方法将AUC提高了6.2%。我们提出的基于联邦的算法不仅产生了虚拟的融合中心的性能,而且还具有O(1/T)的收敛速率。
translated by 谷歌翻译
仿真工作流程是模拟过程设计和控制的顶级模型。它将多个仿真组件与时间和交互限制联系起来,形成一个完整的仿真系统。在对组件模型进行构建和评估之前,在模拟系统中,上层模拟工作流的验证最为重要。但是,尤其用于验证仿真工作流的方法非常限制。许多现有的验证技术都取决于繁琐的问卷设计和专家评分。因此,本文提出了一个基于经验学习的验证程序,以实现模拟工作流的半自动化评估。首先,提出了一般仿真工作流的代表性特征及其与验证指数的关系。然后介绍基于分析层次结构过程(AHP)的工作流可信度的计算过程。为了充分利用历史数据并实施更有效的验证,四种学习算法,包括背部传播神经网络(BPNN),极限学习机器(ELM),不断发展的新纽龙(ENFN)和快速递增的高斯混合模型(引入了FigMn),用于构建工作流可信度及其功能之间的经验关系。建立了有关着陆过程模拟工作流程的案例研究,以测试提出的程序的可行性。实验结果还为模拟模型的可信度评估的最新学习算法提供了一些有用的概述。
translated by 谷歌翻译
许多活动分类段数据中的固定窗口大小以进行特征提取和分类。但是,动物行为的各种持续时间与预定的窗口大小不符。密集的标签和密集的预测方法通过预测每个点的标签来解决此限制。因此,通过追踪起点和终点,我们可以知道所有发生的活动的时间位置和持续时间。尽管如此,严格的预测可能会出现未对准问题的嘈杂。我们修改了U-NET和条件生成对抗网络(CGAN),并具有自定义的损失功能,作为减少破碎和其他未对准的训练策略。在CGAN中,歧视者和发电机像对抗性竞争一样相互训练。发电机产生密集的预测。在我们的情况下,鉴别器作为高级一致性检查,促使发电机以合理的持续时间预测活动。接受CGAN训练的模型在牛,Pig和UCI Hapt数据集中表现出更好或可比的性能。与以前的密集预测工作相比,pgan训练的UNET训练的U-NET从92.17%提高到94.66%,猪数据的猪数据数据集从90.85%提高到90.85%到93.18%。
translated by 谷歌翻译